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一 种 面向 基因 选择 的 结合 Relief-F 和 决策 树 的 APSO 算法 
叶 超 超 ， 潘 巨 龙 ; 


(中 国 计 量 大 学 信息 工程 学 院 , 杭州 310018) 


JH E: 由 于 基因 表达 数据 高 维度 、 高 噪声 、 小 样本 的 特点 ， 基 因 选 择 一 直 是 肿瘤 分 类 的 一 大 挑战 。 为 了 提高 肿瘤 分 
类 的 精度 ， 同 时 保证 基因 选择 的 效率 ， 提 出 一 种 结合 Relief-F 和 CART 决策 树 的 自 适 应 粒子 群 优化 (APSO) 算 法 (R-C- 


APSO)。 该 方法 首先 利用 Relief-F 快速 过 滤 大 ews 缩小 基因 选择 范围 ; 然后 以 CART 决策 树 为 适应 度 
函数 ， 用 APSO 算法 对 基因 进行 最 终 搜索 。 通 过 6 个 数据 集 的 分 析 实 验 ， 实 验 结 果 表 明 ，R-C-APSO 拥有 较 高 的 分 类 


精度 和 较 快 的 基因 选择 速度 ， 且 具有 良好 的 稳定 性 。 
关键 词 : 基因 选择 ; 自 适应 粒子 群 ; 决策 树 ; 肿瘤 分 类 
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New APSO algorithm for gene selection combined with Relief-F and decision tree 


Ye Chaochao, Pan Julong? 
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Abstract: Due to the characteristics of gene expression data in high dimension, high noise and small sample, gene selection had 
been one of the major challenges in tumor classification. In order to improve the accuracy of tumor classification and ensure the 
efficiency of gene selection, this paper developed a new algorithm R-C-APSO using an adaptive particle swarm optimization 
(APSO) combined with Relief-F and CART decision tree. The algorithm utilized Relief-F to quickly filter a large number of 
irrelevant genes and noises, narrowing the gene selection range. The R-C-APSO used the CART decision tree as a fitness 
function, and APSO algorithm performed the final search of the genes. Based on the analysis of 6 data sets, the experimental 
results show that R-C-APSO can obtain high classification accuracy and fast gene selection speed, and has good stability. 
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提出 了 一 种 基于 互信 息 和 遗传 算法 的 两 阶段 特征 选择 方法 ; 文 

献 [6] 提 出 了 基于 信息 增益 和 改进 简化 的 粒子 群 基因 选择 方法 。 
A. 微 阵列 技术 的 快速 发 展 使 得 大 规模 基因 表达 数据 的 ”然而 这 些 方法 在 处 理 连续 型 特征 值 时 ， 常 采用 离散 化 的 方式 ， 
单个 实验 中 完成 。 基 因 表达 数据 具有 维度 高 、 品 这 可 能 会 导致 重要 特征 信息 的 丢失 ;文献 [7] 将 Relief 引入 SNP 
大 、 样 本 少 的 特点 巾 。 成 千 上 万 维 的 基因 中 对 肿瘤 诊断 起 作用 ”全 基因 组 关联 分 析 中 ， 剔 除了 大 量 无 关 基因 并 获得 了 较 高 的 分 
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的 只 占 一 小 部 分 ， 如 果 从 理论 的 角度 直接 将 所 有 的 特征 基因 全 ”类 精度 ,但 Relief 只 能 用 于 二 类 问题 。1994 4E, Kononenko 将 
部 用 于 肿瘤 分 类 ， 将 使 得 运算 变 得 复杂 且 低 效 。 所 以 在 肿瘤 分 其 进行 扩展 ,得 到 了 Relief-FS!; Relief-F 不 仅 能 处 理 多 类 问题 ， 
类 中 ， 基 因 选 择 是 数据 预 处 理 时 至 关 重要 的 一 步 ， 不 但 能 够 去 ”而 且 适 用 于 特征 值 为 连续 的 类 型 ， 是 一 种 高 效 的 数据 预 处理 算 
除 无 关 基 因 来 提高 分 类 精度 ， 还 能 减少 算法 的 计算 代价 乌 。 法 。 

基因 选择 是 分 析 微 阵列 表达 数据 的 最 重要 任务 之 一 ， 因 为 EX (wrapper) Ze n — E EB REAEXETEZ VA, GERA 2] 98 
它 可 以 帮助 发 现 疾病 机 制 ， 降 低 临 床 诊断 成 本 并 提高 肿瘤 分 类 和 搜索 算法 两 个 部 分 。 著 名 的 搜索 算法 有 遗传 算法 、 粒 子 群 优 
精度 B。 过 滤 式 (filtenD) 作 为 特征 选择 方法 之 一 ， 因 其 实现 简单 、 化 (particle swarm optimization，PSO) 算 法 中等。 粒子 群 优 化 算法 


计算 快速 而 被 广泛 采用 。 过 滤 式 特征 选择 通常 采用 统计 学 方法 James Kennedy 和 Russel Eberhart F 1995 年 提出 ， 源 于 对 鸟 
来 挑选 特征 ， 该 方法 与 分 类 模型 无 关 ， 常 用 的 有 : HAR tA 和 群 捕食 行为 的 研究 ， 因 其 参数 少 、 实 现 简 单 且 具有 较 好 的 全 局 
计量 \ 信 息 增益 等 。 文 献 [和 直接 使 用 两 样本 t 统 计量 (two sample 搜索 能 力 而 被 广泛 应 用 90 起 。 文 献 [14] 提 出 一 种 新 的 局 部 搜索 
t-statistic) 来 选择 基因 ,但 该 方法 却 只 能 用 于 二 分 类 问题 ;文献 [5] 。” 策略 , 并 使 用 粒子 群 优化 算法 来 选择 基因 子 集 , 文献 [15] 将 基本 
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粒子 群 算法 与 决策 树 分 类 器 相 结合 来 对 肿瘤 进行 分 类 ;文献 [16] 
提出 一 种 将 支持 向 量 机 (support vector machine，SVM) 和 改进 二 
元 粒子 群 优化 算法 相 结合 的 方法 来 选择 近 最 优 特征 子 集 ;文献 
[17] 通 过 将 相关 系数 与 粒子 群 优 化 算法 相 结合 ， 提 出 一 种 混合 
特征 选择 方法 ， 在 三 个 肿瘤 数据 集 上 获得 了 较 高 的 分 类 精度 。 

上 述 研究 都 表明 PSO 是 一 种 优秀 的 基因 选择 算法 。 然而 当 特 征 
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v? =| vivon] e 在 选 代 过 程 中 ， 每 个 粒子 根据 适应 度 函数 


的 计算 值 来 判断 当前 位 置 的 优 劣 ， 用 pbesrn 表示 粒子 i 在 前 p 
次 过 代 过 程 中 的 最 佳 位 置 在 第 d 维 上 的 值 ， 用 gbest? 表示 所 有 
粒子 在 前 疡 次 迭代 过 程 中 的 最 佳 位 置 在 第 4 维 上 的 值 。 粒 子 通 
过 当前 位 置 、 速 度 和 上 述 两 个 最 佳 位 置 来 决定 下 一 步 的 位 置 和 


ML 


作 数 很 高 、 搜 索 空间 中 拥有 多 个 局 部 极 值 时 ，PSO 算法 就 会 出 
岗 过 早 收 傅 、 陷 入 局 部 最 优 和 计算 耗 时 等 问题 。 通 过 上 面 的 分 
析 ， 本 文 提 出 一 种 新 型 高 效 的 基因 选择 算法 R-C-APSO。 一 方 
M, AA Relief-F 过 滤 快 速 的 特点 来 对 基因 进行 初 选 ， 限 制 基 
因数 量 以 加 快 后 期 搜索 算法 的 速度 。 另 一 方面 , 在 PSO 的 基础 
上 引入 自 适 应 惯性 权重 ， 使 用 全 局 搜索 能 力 更 强 的 自 适 应 粒子 
群 优化 (adaptive particle swarm optimization，APSO) 算 法 来 对 
基因 进行 最 终 的 挑选 。 同 时 ， 本 文选 用 分 类 与 回归 树 
(classification and regression tree，CART) 作 为 APSO 的 适应 度 函 
数 。 将 CART 与 APSO 相 结合 的 算法 目前 研究 成 果 还 不 多 。 
CART 决 策 树 因 其 本 身 具 有 特征 选择 的 功能 , 故 将 其 作为 APSO 
的 适应 度 函 数 来 最 终 验 证 基因 选择 的 有 效 性 ， 将 进一步 提高 肿 
瘤 的 分 类 精度 。 


1 ”相关 概念 


1.1 Relief-F 

Relief-F 是 一 种 运行 效率 很 高 的 特征 选择 算法 , 它 在 Relief 
算法 的 基础 上 扩展 了 多 类 别 数据 处 理 的 功能 ， 同 时 解决 了 数据 
存在 噪声 和 不 完整 的 问题 名。 该 算法 通过 计算 每 个 特征 上 的 一 
个 “相关 统计 量 ” 来 度量 特征 的 重要 性 。 

假设 有 样本 集合 8S — (a, y), ay) ap Yp) ELDR 
别 。 从 集合 中 随机 选择 一 个 样本 w ， 假 定 它 的 类 别 为 
Kk € (L2,...,L] )。 首先 在 w 同类 别 样本 中 找到 与 之 最 近 的 样 


本 ww， ， 将 其 称 为 猜 中 近邻 ， 然 后 再 找 出 其 他 每 个 类 别 中 与 w 
最 近 的 样本 ww (1=1,2,...,L1zk)， 将 其 称 为 猜 错 近 邻 。 那 


么 ,特征 j 的 一 次 相关 统计 量 可 定义 为 
v=o -ats) +I |p x(a ots) ) (1) 
p, 表示 类 别 为 1 的 样本 在 集合 S 中 的 比例 。 根据 (1) 式 ， 计 
算 本 次 各 个 特征 的 相关 统计 量 。 重复 上 述 操作 抽样 M 次 , 将 每 
次 计算 得 到 的 结果 对 应 相 加 即 可 得 到 每 个 特征 的 相关 统计 量 。 
一 个 特征 的 相关 统计 量 越 大 ， 表 示 这 个 特征 在 分 类 中 越 重要 。 
通过 对 所 有 特征 进行 排序 ， 然 后 设 定 阔 值 或 特征 选择 个 数 ， 便 
可 得 到 过 滤 后 的 特征 子 集 。 
1.2 粒子 群 优化 (PSO) 算 法 
粒子 群 优化 (PSO) 算 法 是 一 种 启发 式 的 全 局 优化 方法 ,在 多 
维 空间 中 通过 模拟 鸟 群 的 社会 行为 来 实现 一 个 近似 最 优 解 (9。 
PSO 算法 中 的 每 一 个 对 象 被 称 作 粒子 ， 每 个 粒子 具有 位 置 和 速 
度 两 个 属性 。 假 定 算法 运行 在 n 维 空间 中 ， 则 粒子 i 的 第 p 次 
迭代 位 置 和 速度 可 以 分 别 表示 为 x? Sjal, a,x] > 


中 


速度 ， 粒 子 i 的 更 新 公式 如 下 : 


v?" 2 owl + on ( pbestl 一 a) t C (abest -xb ) (2) 
,sigmoid (vo" ) = M jy > U(0,1) 

x"- (se) G) 
O, otherwise 


Ka. e 称 为 学 习 系 数 ; 和 % 取 0 到 1 之 间 的 随机 数 ，w 
是 粒子 迭代 时 的 惯性 权重 中 9， 一 般 取 常 数 ;，U(0,1) 表示 0 到 1 
之 间 服 从 均匀 分 布 的 随机 数 。 另 外 ， 和 迭代 过 程 中 每 个 粒子 的 速 
PEVZNER BIE [V in Vna | ZO 
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2 ”结合 Relief-F 和 决策 树 的 APSO 算法 


2. 自 适 应 粒子 群 优化 (APSO) 算 法 

PSO 算法 虽然 拥有 较 强 的 搜索 能 力 ， 但 在 面 对 多 极 值 问题 
时 ， 常 因 陷入 局 部 最 优 而 错过 最 优 解 中 。 为 了 进一步 增强 粒子 
的 整体 搜索 能 力 ， 本 文 引入 自 适 应 惯性 权重 wz 来 更 新 粒子 的 
速度 : 


p 


v^ olv, ro ( pbestl — x}, ) TC ( gbest? 一 x) (4) 


o” = (Omax -onn )xexp(- Qr» p! P J) + ow (5) 


其 中 : w 和 Oon 分 别 为 最 大 和 最 小 惯性 权重 ，7 为 [20,55] 的 经 
WB: p 为 当前 迭代 次 数 ，p，. 为 预 设 的 最 大 迭代 次 数 。 由 (5) 
式 可 以 看 出 ，w 的 值 随 着 迭代 的 进行 从 ww 最 终 降 到 mw，.。 惯 
性 权重 具有 平衡 粒子 群 算法 的 全 局 搜索 和 局 部 搜索 功能 09]。 当 
o^ 较 大 时 ， 可 以 提高 APSO 的 全 局 搜索 能 力 ;， 当 or 较 小 时 ， 
APSO 拥有 较 强 的 局 部 搜索 能 力 。 
2.2 适应 度 函 数 
适应 度 函 数 是 评价 粒子 个 体质 量 的 指标 ， 适 应 度 函 数 选取 
的 好 坏 对 APSO 算法 的 收敛 速度 及 能 否 找到 最 优 解 具有 很 大 的 
影响 。 本 文 将 CART 决策 树 作 为 适应 度 函数 ， 因 其 具有 特征 
择 的 能 力 ， 这 将 使 特征 子 集 得 到 更 好 的 验证 ， 粒 子 个 体质 量 和 做 
到 更 好 的 评价 。 
假设 存在 一 个 含 n 类 样本 的 样本 集 D, 第 m 类 样本 的 比例 


~ 


dm Gk 


为 p, (m=1,2,.. n) ABA D 的 纯度 可 以 用 下 式 衡 量 : 
Gini(D) - È Y, p.p, -1- 3. p} (6) 
m=1 m'#m m-l 


D 的 基尼 值 Gini(D) 与 其 纯度 呈 负 相关 关系 ， 其 值 越 小 就 


意味 着 DD 的 纯度 越 高 。 
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录用 稿 叶 超 超 ， 等 : 一 种 面向 基因 选择 的 结合 ReliefF 和 决策 树 的 APSO 
CART 决策 树 在 选择 划分 属性 时 ， 使 用 的 指标 为 基尼 指数 o) 根 据 相关 统计 量 大 小 对 所 有 基因 进行 排序 ， 只 保留 前 T 
Po。 假定 用 属性 b 对 样本 集 D 进行 划分 并 产生 闻 个 分 支 , 将 分 ”个 基因 ， 这 里 了 取 100; 
支 1 的 样本 集 记 为 pr, ， 则 属性 5 的 基尼 指数 定义 为 d)Ut EE APSO 的 种 群 个 数 N 和 最 大 迭代 次 数 已，， 并 对 种 
Gia DFP om (py) O 群 进行 初始 化 。 这 里 入 取 20，P, W100; 
"^ f|D| e) UE Et APSO 的 学 习 系数 c, c, 均 为 2; 粒子 最 大 速度 也 a 
为 4， 最 小 速度 V, 为 -4; 最 大 惯性 权重 oa M 最 小 惯性 权重 


[D 和 |D”| 分 别 表示 集合 D 和 D 的 样本 个 数 。CART 决策 
w， 参 考 文献 [21]， 分 别 取 0.9 和 0.4; 


树 选 择 基 尼 指 数 最 小 的 属性 作为 划分 属性 。 属 性 的 基尼 指数 越 外 根据 式 (3) 计 算出 自 适 应 惯性 权重 ， 然 后 用 分 类 器 CART 
小 ， 则 划分 后 各 个 分 支 集合 的 样本 纯度 越 高 。 决策 树 计 算 各 个 粒子 的 适应 度 函数 值 ; 
23 ”算法 描述 g) 根 据 所 有 粒子 的 适应 度 函 数值 更 新 种 群 的 最 佳 位 置 和 每 


为 了 提高 肿瘤 分 类 的 精度 同时 保证 基因 选择 的 效率 ， 本 文 ”个 粒子 的 最 佳 位 置 ， 并 根据 式 (4)、(3) 更 新 各 个 粒子 的 速度 和 位 
在 PSO 算法 的 基础 上 提出 了 一 种 新 的 基因 选择 算法 : 一 种 面向 ” 置 ; 
因 选 择 的 结合 Relief-F 和 决策 树 的 APSO 算法 (R-C-APSO)。 h) 判 断 当 前 是 否 达 到 最 大 迭代 次 数 ， 若 没有 达到 ， 则 转 至 
该 方法 充分 利用 了 Relief-F 的 过 滤 性 能 、 自 适应 粒子 群 优化 步骤 了 全 继续 迭代 ; 否则 ， 退 出 结束 。 


Bu 


(APSO) 算 法 的 非 线性 搜索 能 力 和 CART. 决策 树 本 身 的 特征 选 e 

择优 势 。 首 先 ， 算 法 使 用 RelieEF 根据 (1) 式 计算 每 个 基因 的 相 S 。 实验 结果 及 分 本 

关 统 计量 ， 按 计算 结果 从 大 到 小 对 基因 进行 排序 。 一 个 基因 的 为 了 验证 R-C-APSO 的 有 效 性 ， 本 文选 用 6 个 公开 的 基因 
相关 统计 量 越 大 ,那么 这 个 基因 对 肿瘤 分 类 起 到 的 作用 就 越 大 。 数据 集 来 进行 实验 ,分别 是 SRBCT、Brain Tumorl,9 Tumors, 

然后 , 对 排序 后 的 基因 进行 筛选 ,只 保留 排序 靠 前 的 T 个 基因 ， Prostate Tumor, Brain Tumor2、DLBCL。 各 基因 数据 集 的 详情 
去 除 其 余 大 量 无 关 基 因 和 噪声 。 最 后 ， 使 用 上 一 步 筛选 出 来 的 如 表 1 所 示 。 此 次 实验 在 64 windows? 操作 系统 上 完成 ， 代 


基因 对 APSO 的 种 群 进行 初始 化 ， 利 用 搜索 能 力 较 强 的 APSO 码 运 行 环境 为 python2.7, 计算 机 处 理 器 为 i5-3230M@2.6 GHz, 
来 选择 最 终 的 基因 子 集 。 由 于 前 期 Relief-F 大 大 降低 了 基因 的 内 存 8 GB。 


维度 ， 这 将 为 APSO 的 搜索 节省 大 量 时 间 。 实验 中 ， 以 CART 决策 树 作 为 分 类 器 ， 对 每 一 个 基因 数据 
w=U(0,1) (8)  dEutfr 10 次 实验 。 每 次 实验 采用 五 折 交 叉 验证 ， 以 10 次 实验 

o o 0) 结果 的 平均 值 作为 最 终 的 分 类 精度 。 为 了 更 好 地 评价 R-C- 

"' lüjotherwise APSO 的 性 能 , 本 文 还 和 如 下 算法 进行 了 对 比 实验 , 包括 :CART 


在 APSO 的 种 群 初始 化 阶段 ， 粒 子 i 的 初始 速度 和 初始 位 算法 ; Relief-F 算法 ; 以 CART 为 适应 度 函数 的 PSO 算法 (CART- 


置 在 第 d 维 上 的 值 通过 通过 式 (8) 和 (9) 计 算 获 取 ， 其 中 U(0,1) PSO); SVM 算法 。 
表示 0 到 1 之 间 服 从 均匀 分 布 的 随机 数 。 另 外 ， 在 APSO 搜索 表 2 给 出 了 6 个 数据 集 在 5 种 算法 下 的 实验 结果 。 
阶段 ， 将 分 类 器 CART 决策 树 作为 适应 度 函数 ， 用 其 分 类 精度 表 1 数据 集 描述 
来 对 每 次 搜索 到 的 基因 子 集 进行 评价 。CART 决策 树 具有 特征 "t -—" t E 
选择 的 功能 ， 且 模型 构建 速度 较 快 ， 作 为 适应 度 函 数 来 评价 基 SRBCT 2038 83 4 
因子 集 将 进一步 提升 肿瘤 的 分 类 精 / AU E "n * , 
R-C-APSO 算法 具体 实现 过 程 描述 如 下 ; We » 5 
a) 对 每 个 样本 的 原始 特征 进行 0 均值 标准 化 处 理 ; ES E E > 
b) 使 用 Relief-F 算法 根据 (1) 式 计算 各 个 基因 的 相关 统计 量 MENT - " 
大 小 , 其 中 ,重复 抽样 次 数 M 为 样本 个 数 , 平均 每 个 样本 被 抽 到 a MS A i 
一 次 ; 
表 2 R-C-APSO 与 对 比 算法 在 各 数据 集 上 的 平均 分 类 精度 [^ 
算法 SRBCT Brain Tumor] 9 Tumors Prostate Tumor Brain Tumor2  DLBCL 
CART 74.72 69.65 33.08 83.04 57.85 79.10 
Relief-F 80.56 75.20 34.98 86.27 63.33 86.28 
CART-PSO 93.29 82.51 54.13 93.53 77.50 94.72 
SVM 89.78 79.64 51.39 88.51 76.18 95.14 


R-C-APSO 93.74 85.79 57.01 94.30 84.15 96.70 
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从 表 中 可 以 看 到 ， 本 文 提出 的 R-C-APSO 算法 在 各 个 数据 


集 上 的 分 类 精度 是 最 高 的 。CART-PSO 与 经 典 的 SVM 相 比 ， 

除了 在 Brain_Tumors 和 DLBCL 数据 集 上 两 者 的 分 类 精度 接近 ， 
在 其 他 数据 集 上 CART-PSO 的 表现 均 优 于 SVM。 这 说 明 CART 
决策 树 与 PSO 相 结合 已 是 一 种 较 好 的 基因 选择 方法 。 另 外 ， 从 


表 2 的 2、3 两 行 可 以 看 出 


， 经 过 Relief-F 
在 各 数据 集 上 的 分 类 精度 有 了 明显 的 提升 ， 这 从 侧面 说 明了 


哥 作 后 的 CART 算法 


Relief-F 适用 于 基因 初 选 ， 能 过 滤 掉 大 量 的 无 关 基因 和 噪声 。 


CART-PSO 和 R-C-APSO 是 上 述 5 种 算法 中 分 类 精度 最 高 


的 两 种 ， 且 都 是 基于 粒子 群 优化 算法 。 


为 了 进一步 比较 这 两 种 


算法 的 优 劣 ,本文 在 实验 时 还 记录 了 两 
和 迭代 过 程 ， 如 表 3 和 图 1~3 


所 示 。 


种 算法 的 CPU 运行 时 间 


表 3 CART-PSO 与 R-C-APSO 在 各 数据 集 上 的 CPU 运行 时 间 ( 秒 ) 


数据 集 CARTPSO  R-C-APSO 
SRBCT 75.89 6.19 
Brain Tumorl 243.00 9.83 
9 Tumors 203.88 6.63 
Prostate Tumor 310.34 10.80 
Brain Tumor2 188.29 6.32 
DLBCL 113.08 6.86 


从 表 3 可 以 直观 地 看 到 ,R-C-APSO 在 各 个 数据 集 上 的 CPU 


运行 时 间 均 远 远 小 于 CART-PSO 。 在 自 


适应 粒子 群 优化 算法 中 ， 


适应 度 函 数 的 复杂 度 是 该 算法 复杂 度 昌 


的 主要 组 成 部 分 。 本 文 以 
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"ARAB, AR: 一 种 面向 基因 选择 的 结合 Relief-F 和 决策 树 的 APSO 算法 


ES 
$ 
了 0.8 Fr —8— Prostate Tumor. R-C-APSO 
i —e— Prostate Tumor. CART-PSO 


—*— Brain Tumor1、R-C-APSO 
—*— Brain Tumor1. CART-PSO 
L L i 1 J 


100 


0.7 L i L 
0 5 10 15 20 40 60 80 
IARA 


图 2 Brain Tumorl, Prostate Tumor 数据 


发 上 两 种 算法 的 近代 过 程 


1p -—e- Brain Tumor2. R-C-APSO 
—e— Brain Tumor2. CART-PSO 
0.9 上 —-— 9 Tumors, R-C-APSO 


—*— 9 Tumors. CART-PSO 


分 类 精度 % 


0 5 10 15 


20 40 60 80 
和 迭代 次 数 


图 3 9 Tumors, Brain Tumor2 数据 集 上 两 种 算法 的 迭代 过 程 


4 ”结束 语 


本 文 充分 利用 自 适应 粒子 群 优化 算法 的 非 线 性 搜索 能 力 、 
Relief-F 的 过 滤 性 能 和 CART 决策 树 的 分 割 优势 ， 提 出 了 一 种 


CART 决策 树 作 为 适应 度 函 数 ， 其 复杂 度 随 着 特征 维度 的 升 高 


而 增 大 。 因 此 ， 当 采用 Relief-F 对 基因 
杂 度 便 得 到 了 有 效 降低 ,这 大 大 提高 了 
此 外 ， 从 图 1~3 可 以 清楚 地 发 现 ， 
C-APSO 在 6 个 数据 集 上 均 拥有 更 好 和 


A 


进行 降 维 后 ,， APSO 的 复 
R-C-APSO 的 时 间 效 率 。 
与 CART-PSO 相 比 ，R- 

的 搜索 起 点 。 且 在 之 后 的 


迭代 过 程 中 ，R-C-APSO 的 分 类 精度 也 始终 大 于 CART-PSO。 


有 向 基因 选择 的 结合 Relief-F 和 决策 树 的 APSO 算法 。 该 算法 
不 但 提高 了 肿瘤 分 类 的 精度 ， 而 且 在 运算 时 间 上 远 小 于 粒子 群 
优化 算法 ， 具 有 较 好 的 稳定 性 。 通 过 实验 分 析 表 明 ， 本 文 提 出 
的 R-C-APSO 是 一 种 有 效 的 基因 选择 算法 。 

本 文 在 自 适 应 粒子 群 优化 算法 的 部 分 参数 选择 上 ， 如 最 大 
惯性 权重 、 最 小 惯性 权重 等 主要 参考 了 以往 的 文献 ， 接 下 来 将 


所 以 ，R-C-APSO 在 分 类 性 能 上 具有 较 强 的 稳定 性 。 同 时 本 文 
还 可 以 看 到 ， 两 种 算法 在 获取 相同 分 类 精度 的 条 件 下 ，R-C- 


APSO 只 需要 更 少 的 时 间 和 迭代 次 数 。 


进行 更 多 的 研究 和 实验 ， 通 过 优化 这 些 参数 来 提高 算法 的 收敛 
速度 和 全 局 搜索 能 力 。 另 外 ， 在 基因 选择 方法 的 评价 方面 ， 本 


这 在 计算 资源 有 限 或 时 


间 要 求 较 高 的 情况 下 ，R-C-APSO 具有 更 大 的 优势 。 
综 上 分 析 ， 本 文 提出 的 R-C-APSO 算法 在 分 类 精度 上 都 要 


高 于 其 他 四 种 算法 。 与 使 用 粒子 群 优化 


算法 的 CART-PSO 相 比 ， 


R-C-APSO 还 具有 基因 选择 速度 快 ， 稳 定性 好 的 优点 。 


0.975 r 


03 pr —5- DLBCL. R-C-APSO 
—9— DLBCL. CART-PSO 
0.875 上 —+— SRBCT. R-C-APSO 
一 SRBCT. CART-PSO 

Du 1 1 1 1 1 1 1 j 

0 5 10 15 20 40 60 80 100 
迭代 次 数 
图 1 SRBCT、DLBCL 数据 集 上 两 种 算法 的 迭代 过 程 


文 主要 从 最 终 肿瘤 分 类 的 效果 上 来 进行 ,对 所 选择 基因 的 个 数 、 
特点 未 进行 深入 的 分 析 ， 这 将 是 本 文 接 下 来 的 工作 。 
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